今天搜了一个nodejs的爬虫. 尝试着爬了一下jd.com.
但是一直返回302,最终发现是User-Agent问题, node执行js时没有User-Agent.

var http    = require('http');
var url        = require('url');
var $ = require('jquery');

var options = {
    headers: {'User-Agent': 'curl/7.43.0'},
    host: 'search.jd.com',
    path: '/Search?keyword=abc&enc=utf-8',
    url: '/Search?keyword=%E9%93%B6%E9%B3%95%E9%B1%BC&enc=utf-8'

}
http.get(options,function(res){
    var body = '';
    res.on('data', function(d) {
        body += d;
    });
    res.on('end',function(){
        console.log(body);
    });
})

Ksana
1 声望1 粉丝

Web前端泥瓦匠